检索结果

Select

1. Spark环境下基于多维布隆过滤器的星型连接算法

周国亮, 萨初日拉, 朱永利

计算机应用 2016, 36 (2): 353-357. DOI: 10.11772/j.issn.1001-9081.2016.02.0353

摘要（923）

PDF （765KB）（889）

为了适应联机分析处理(OLAP)系统中实时数据高性能分析需求不断提高的需求,提出一种能够适合Spark环境并结合多维Bloom Filter(MDBF)的星型连接算法SMDBFSJ。首先,根据多个维表构建MDBF,利用其占用空间小的特点,广播到所有节点;然后,在本地节点完成事实表过滤操作,事实表不需要在节点间移动数据;最后,过滤后的事实表与维表采用重划分方式进行连接,进而得到最终结果。SMDBFSJ算法避免了事实表数据移动,通过MDBF减小了需要广播的数据量,充分结合了广播连接和重划分连接的优势。实验结果表明了该算法的有效性,在单机和集群环境下,该算法相比重划分连接均获得了3倍左右的性能提升。

参考文献 | 相关文章 | 多维度评价

Select

2. Spark环境下并行立方体计算方法

萨初日拉, 周国亮, 时磊, 王刘旺, 石鑫, 朱永利

计算机应用 2016, 36 (2): 348-352. DOI: 10.11772/j.issn.1001-9081.2016.02.0348

摘要（477）

PDF （769KB）（961）

针对传统联机分析处理(OLAP)处理大数据时实时响应能力差的问题,研究基于分布式内存计算框架Spark加速的数据立方体计算方法,设计基于Spark内存集群的自底向上构造(BUC)算法——BUCPark,来提高BUC的并行度和大数据适应能力。在此基础上,为避免内存中迭代的立方体单元膨胀,基于内存重复利用和共享的思想设计改进的BUCPark算法——LBUCPark。实验结果表明:LBUCPark算法性能优于BUC算法和BUCPark算法,能够胜任大数据背景下的快速数据立方体计算任务。

参考文献 | 相关文章 | 多维度评价

Select

3. Spark环境下的并行模糊C均值聚类算法

王桂兰, 周国亮, 萨初日拉, 朱永利

计算机应用 2016, 36 (2): 342-347. DOI: 10.11772/j.issn.1001-9081.2016.02.0342

摘要（1114）

PDF （901KB）（1347）

针对聚类算法需要处理数据集的规模越来越大、时效性要求越来越高,对算法的大数据适应能力和性能要求更高的问题,提出一种在Spark分布式内存计算平台下的模糊C均值(FCM)算法Spark-FCM。首先对矩阵通过水平分割实现分布式存储,不同向量存储在不同节点;然后基于FCM算法的计算特点,设计了分布式和缓存敏感的常用矩阵操作,包括乘法、转置和加法等;最后基于矩阵操作和Spark平台特点,设计了Spark-FCM算法,主要数据结构采用分布式矩阵存储,具有节点间数据移动少和每个步骤分布式计算特点。通过在单机和集群环境下测试,算法具有良好的可扩展性,并可以适应大规模数据集,算法性能与数据量成线性关系,集群环境下性能比单机提高2~3倍。

参考文献 | 相关文章 | 多维度评价